डेपट्स

समस्या की शिकायत करें सोर्स देखें

जानकारी एक खास तरह का डेटा स्ट्रक्चर है. इससे किसी टारगेट की ट्रांज़िशन डिपेंडेंसी के दौरान, बेहतर तरीके से डेटा इकट्ठा किया जाता है. ये नियम प्रोसेस करने के एक ज़रूरी एलिमेंट हैं.

depset की मुख्य सुविधा, इसका समय और जगह की बचत करने वाला यूनियन ऑपरेशन है. डिप्सेट कंस्ट्रक्टर, एलिमेंट ("डायरेक्ट") की सूची और अन्य डिपसेट ("ट्रांज़िटिव") की सूची स्वीकार करता है. साथ ही, यह डिप्सेट दिखाता है. यह एक सेट को दिखाता है, जिसमें सभी डायरेक्ट एलिमेंट और सभी ट्रांज़िटिव सेट के यूनियन होते हैं. सैद्धान्तिक तौर पर, कंस्ट्रक्टर एक नया ग्राफ़ नोड बनाता है, जिसमें डायरेक्ट और ट्रांज़िटिव नोड शामिल होते हैं. इस ग्राफ़ के ट्रैवर्सल पर आधारित डिपसेट में, क्रम से जुड़े अच्छे तरीके से परिभाषित किए जाते हैं.

डिपेसेट के उदाहरण में ये शामिल हैं:

  • किसी प्रोग्राम की लाइब्रेरी के लिए सभी ऑब्जेक्ट फ़ाइलों के पाथ स्टोर करना, जिसे किसी कंपनी की मदद से लिंकर कार्रवाई को भेजा जा सकता है.

  • इंटरप्रेटेड लैंग्वेज के लिए, उन ट्रांज़िटिव सोर्स फ़ाइलों को सेव करना जो एक्ज़ीक्यूटेबल रन फ़ाइल में शामिल हैं.

जानकारी और कार्रवाइयां

सैद्धान्तिक तौर पर, डेप्सेट एक डायरेक्ट एसाइकलिक ग्राफ़ (डीएजी) होता है, जो आम तौर पर टारगेट ग्राफ़ से मिलता-जुलता दिखता है. इसे पत्तियों से लेकर जड़ तक बनाया जाता है. डिपेंडेंसी चेन में हर टारगेट, पिछले कॉन्टेंट के ऊपर अपना कॉन्टेंट जोड़ सकता है. इसके लिए, उसे पढ़ने या कॉपी करने की ज़रूरत नहीं होती.

डीएजी के हर नोड में डायरेक्ट एलिमेंट की सूची और चाइल्ड नोड की सूची होती है. डिपसेट का कॉन्टेंट ट्रांज़िटिव एलिमेंट होता है, जैसे कि सभी नोड के डायरेक्ट एलिमेंट. depset कंस्ट्रक्टर का इस्तेमाल करके एक नया डिपसेट बनाया जा सकता है: यह डायरेक्ट एलिमेंट की सूची और चाइल्ड नोड की दूसरी सूची स्वीकार करता है.

s = depset(["a", "b", "c"])
t = depset(["d", "e"], transitive = [s])

print(s)    # depset(["a", "b", "c"])
print(t)    # depset(["d", "e", "a", "b", "c"])

किसी डेटासेट का कॉन्टेंट वापस पाने के लिए, to_list() तरीके का इस्तेमाल करें. यह डुप्लीकेट एलिमेंट को छोड़कर, सभी ट्रांज़िटिव एलिमेंट की सूची दिखाता है. सीधे तौर पर डीएजी के स्ट्रक्चर की जांच करने का कोई तरीका नहीं है. हालांकि, यह स्ट्रक्चर एलिमेंट को लौटाने के क्रम पर असर डालता है.

s = depset(["a", "b", "c"])

print("c" in s.to_list())              # True
print(s.to_list() == ["a", "b", "c"])  # True

डिप्सेट में अनुमति वाले आइटम पर उसी तरह पाबंदी होती है जिस तरह डिक्शनरी में इस्तेमाल की जा सकने वाली कुंजियों पर पाबंदी होती है. खास तौर पर, हो सकता है कि डिप्सेट कॉन्टेंट में बदलाव न किया जा सके.

डिपेसेट, रेफ़रंस समानता का इस्तेमाल करते हैं: डिप्सेट अपने ही बराबर होता है, लेकिन किसी भी दूसरे डिपसेट के बराबर नहीं होता, भले ही उनमें एक जैसा कॉन्टेंट और अंदरूनी स्ट्रक्चर हो.

s = depset(["a", "b", "c"])
t = s
print(s == t)  # True

t = depset(["a", "b", "c"])
print(s == t)  # False

d = {}
d[s] = None
d[t] = None
print(len(d))  # 2

डिसेट की तुलना उनकी सामग्री के आधार पर करने के लिए, उन्हें क्रम से लगाई गई सूचियों में बदलें.

s = depset(["a", "b", "c"])
t = depset(["c", "b", "a"])
print(sorted(s.to_list()) == sorted(t.to_list()))  # True

डीपसेट से एलिमेंट हटाने की कोई सुविधा नहीं है. अगर यह ज़रूरी है, तो आपको डिपसेट का पूरा कॉन्टेंट पढ़ना होगा, उन एलिमेंट को फ़िल्टर करना होगा जिन्हें आपको हटाना है, और एक नया डेटा सेट फिर से बनाना होगा. यह बहुत असरदार नहीं होता.

s = depset(["a", "b", "c"])
t = depset(["b", "c"])

# Compute set difference s - t. Precompute t.to_list() so it's not done
# in a loop, and convert it to a dictionary for fast membership tests.
t_items = {e: None for e in t.to_list()}
diff_items = [x for x in s.to_list() if x not in t_items]
# Convert back to depset if it's still going to be used for union operations.
s = depset(diff_items)
print(s)  # depset(["a"])

ऑर्डर

to_list कार्रवाई डीएजी के ऊपर ट्रैवर्सल करती है. ट्रैवर्सल का प्रकार उस क्रम पर निर्भर करता है, जो डिपसेट बनाते समय तय किया गया था. Bazel के लिए कई ऑर्डर के लिए मददगार होता है, क्योंकि कभी-कभी टूल अपने इनपुट के क्रम पर ध्यान देते हैं. उदाहरण के लिए, लिंकर की कार्रवाई के लिए यह पक्का करने की ज़रूरत पड़ सकती है कि अगर B A पर निर्भर है, तो लिंकर की कमांड लाइन पर A.o B.o से पहले आए. अन्य टूल की ज़रूरत बिलकुल उलट हो सकती है.

तीन ट्रैवर्सल ऑर्डर इस्तेमाल किए जा सकते हैं: postorder, preorder, और topological. पहले दो काम बिलकुल ट्री ट्रेवर्सल की तरह होते हैं, हालांकि वे डीएजी पर काम करते हैं और पहले से विज़िट किए गए नोड को छोड़ देते हैं. तीसरा ऑर्डर, रूट से लेकर लीफ़ तक के पेजों को क्रम से लगाता है. यह बिलकुल पहले से ऑर्डर किए गए बच्चों के जैसा ही है. हालांकि, शेयर किए गए बच्चों को उनके माता-पिता के बाद ही सूची में शामिल किया जाता है. पहले से ऑर्डर करें और पोस्टऑर्डर करें, बाएं से दाएं ट्रेवर्सल के तौर पर काम करते हैं, लेकिन ध्यान रखें कि हर नोड डायरेक्ट एलिमेंट में बच्चों के मुकाबले कोई क्रम नहीं होता. टॉपोलॉजिकल ऑर्डर के लिए, कोई लेफ़्ट-टू-राइट गारंटी नहीं होती. साथ ही, डीएजी के अलग-अलग नोड में डुप्लीकेट एलिमेंट होने की स्थिति में, माता-पिता/अभिभावक से पहले की गारंटी भी लागू नहीं होती.

# This demonstrates different traversal orders.

def create(order):
  cd = depset(["c", "d"], order = order)
  gh = depset(["g", "h"], order = order)
  return depset(["a", "b", "e", "f"], transitive = [cd, gh], order = order)

print(create("postorder").to_list())  # ["c", "d", "g", "h", "a", "b", "e", "f"]
print(create("preorder").to_list())   # ["a", "b", "e", "f", "c", "d", "g", "h"]
# This demonstrates different orders on a diamond graph.

def create(order):
  a = depset(["a"], order=order)
  b = depset(["b"], transitive = [a], order = order)
  c = depset(["c"], transitive = [a], order = order)
  d = depset(["d"], transitive = [b, c], order = order)
  return d

print(create("postorder").to_list())    # ["a", "b", "c", "d"]
print(create("preorder").to_list())     # ["d", "b", "a", "c"]
print(create("topological").to_list())  # ["d", "b", "c", "a"]

ट्रैवर्सल को लागू करने के तरीके की वजह से, कंस्ट्रक्टर के order कीवर्ड आर्ग्युमेंट के साथ डिपसेट बनाते समय, क्रम तय किया जाना चाहिए. अगर यह तर्क हटा दिया जाता है, तो डिप्सेट में खास default क्रम होता है. इस मामले में, इसके किसी भी एलिमेंट के क्रम की कोई गारंटी नहीं होती (हालांकि, यह तय नहीं है).

पूरा उदाहरण

यह उदाहरण https://github.com/bazelbuild/examples/tree/main/rules/depsets पर उपलब्ध है.

मान लें कि कोई ऐसी काल्पनिक भाषा है जिसकी भाषा का इस्तेमाल किया गया है. हर foo_binary बनाने के लिए, आपको उन सभी *.foo फ़ाइलों के बारे में जानना होगा जिन पर यह सीधे तौर पर या किसी अन्य तरीके से निर्भर करता है.

# //depsets:BUILD

load(":foo.bzl", "foo_library", "foo_binary")

# Our hypothetical Foo compiler.
py_binary(
    name = "foocc",
    srcs = ["foocc.py"],
)

foo_library(
    name = "a",
    srcs = ["a.foo", "a_impl.foo"],
)

foo_library(
    name = "b",
    srcs = ["b.foo", "b_impl.foo"],
    deps = [":a"],
)

foo_library(
    name = "c",
    srcs = ["c.foo", "c_impl.foo"],
    deps = [":a"],
)

foo_binary(
    name = "d",
    srcs = ["d.foo"],
    deps = [":b", ":c"],
)
# //depsets:foocc.py

# "Foo compiler" that just concatenates its inputs to form its output.
import sys

if __name__ == "__main__":
  assert len(sys.argv) >= 1
  output = open(sys.argv[1], "wt")
  for path in sys.argv[2:]:
    input = open(path, "rt")
    output.write(input.read())

यहां, बाइनरी d के ट्रांज़िटिव सोर्स, a, b, c, और d के srcs फ़ील्ड की सभी *.foo फ़ाइलें हैं. foo_binary टारगेट को d.foo के अलावा किसी और फ़ाइल के बारे में जानने के लिए, foo_library टारगेट को उन्हें किसी कंपनी के पास पास करना होगा. हर लाइब्रेरी में, सेवा देने वाली कंपनियों को उसकी अपनी निर्भरता से लिया जाता है, अपने तुरंत सोर्स जोड़े जाते हैं, और ऑगमेंटेड कॉन्टेंट के साथ नई सेवा देने वाली कंपनी को आगे भेजा जाता है. foo_binary नियम भी यही करता है. हालांकि, यह सेवा देने वाली कंपनी को लौटाने के बजाय, सोर्स की पूरी सूची का इस्तेमाल करके किसी कार्रवाई के लिए कमांड लाइन बनाती है.

यहां foo_library और foo_binary नियमों को पूरी तरह लागू करने के बारे में बताया गया है.

# //depsets/foo.bzl

# A provider with one field, transitive_sources.
FooFiles = provider(fields = ["transitive_sources"])

def get_transitive_srcs(srcs, deps):
  """Obtain the source files for a target and its transitive dependencies.

  Args:
    srcs: a list of source files
    deps: a list of targets that are direct dependencies
  Returns:
    a collection of the transitive sources
  """
  return depset(
        srcs,
        transitive = [dep[FooFiles].transitive_sources for dep in deps])

def _foo_library_impl(ctx):
  trans_srcs = get_transitive_srcs(ctx.files.srcs, ctx.attr.deps)
  return [FooFiles(transitive_sources=trans_srcs)]

foo_library = rule(
    implementation = _foo_library_impl,
    attrs = {
        "srcs": attr.label_list(allow_files=True),
        "deps": attr.label_list(),
    },
)

def _foo_binary_impl(ctx):
  foocc = ctx.executable._foocc
  out = ctx.outputs.out
  trans_srcs = get_transitive_srcs(ctx.files.srcs, ctx.attr.deps)
  srcs_list = trans_srcs.to_list()
  ctx.actions.run(executable = foocc,
                  arguments = [out.path] + [src.path for src in srcs_list],
                  inputs = srcs_list + [foocc],
                  outputs = [out])

foo_binary = rule(
    implementation = _foo_binary_impl,
    attrs = {
        "srcs": attr.label_list(allow_files=True),
        "deps": attr.label_list(),
        "_foocc": attr.label(default=Label("//depsets:foocc"),
                             allow_files=True, executable=True, cfg="host")
    },
    outputs = {"out": "%{name}.out"},
)

इसकी जांच की जा सकती है. इसके लिए, इन फ़ाइलों को किसी नए पैकेज में कॉपी करें, लेबल का सही नाम बदलें, डमी कॉन्टेंट वाली सोर्स *.foo फ़ाइलें बनाएं, और d टारगेट बनाएं.

परफ़ॉर्मेंस

यह जानने के लिए कि डेटा सेट अप करने की वजह क्या है, यह देखें कि अगर get_transitive_srcs() ने अपने सोर्स को सूची में इकट्ठा किया हो, तो क्या होगा.

def get_transitive_srcs(srcs, deps):
  trans_srcs = []
  for dep in deps:
    trans_srcs += dep[FooFiles].transitive_sources
  trans_srcs += srcs
  return trans_srcs

इसमें डुप्लीकेट शामिल नहीं हैं. इसलिए, a की सोर्स फ़ाइलें कमांड लाइन पर दो बार और आउटपुट फ़ाइल के कॉन्टेंट में दो बार दिखेंगी.

इसका एक विकल्प सामान्य सेट का इस्तेमाल करना है, जिसे किसी शब्दकोश की मदद से सिम्युलेट किया जा सकता है, जहां बटन, एलिमेंट होते हैं और सभी बटन, True पर मैप करते हैं.

def get_transitive_srcs(srcs, deps):
  trans_srcs = {}
  for dep in deps:
    for file in dep[FooFiles].transitive_sources:
      trans_srcs[file] = True
  for file in srcs:
    trans_srcs[file] = True
  return trans_srcs

इससे डुप्लीकेट हटा दिए जाते हैं, लेकिन कमांड लाइन तर्कों (और इसलिए फ़ाइलों की सामग्री) के क्रम को तय नहीं किया जाता, फिर भी यह तय नहीं होता.

इतना ही नहीं, दोनों ही तरीके, डिपसेट पर आधारित नज़रिए की तुलना में असरदार तरीके से खराब हैं. ऐसे मामले पर विचार करें जहां फ़ू लाइब्रेरी का काफ़ी लंबे समय से इस्तेमाल किया जाता हो. हर नियम को प्रोसेस करने के लिए, इसके पहले आने वाले सभी ट्रांज़िटिव सोर्स को नए डेटा स्ट्रक्चर में कॉपी करना ज़रूरी होता है. इसका मतलब है कि किसी लाइब्रेरी या बाइनरी टारगेट का विश्लेषण करने में लगने वाला समय और स्पेस, इस बात के बराबर होता है कि चेन में उसकी ऊंचाई क्या है. लंबाई n की चेन के लिए, foolib_1 ← foolib_2 ← ... ← foolib_n है. इसकी कुल लागत O(n^2) है.

आम तौर पर, डिपेसेट का इस्तेमाल तब किया जाना चाहिए, जब आप अपनी ट्रांज़िटिव डिपेंडेंसी के ज़रिए जानकारी इकट्ठा करते हों. इससे यह पक्का करने में मदद मिलती है कि आपके बिल्ड स्केल और आपके टारगेट ग्राफ़ का स्तर बढ़ता जाए.

आखिर में, यह ज़रूरी है कि नियम लागू करते समय, डिपसेट का कॉन्टेंट ग़ैर-ज़रूरी तौर पर वापस न लाया जाए. बाइनरी नियम के आखिर में, to_list() पर एक कॉल करना सही है, क्योंकि कुल लागत सिर्फ़ O(n) है. ऐसा तब होता है, जब कई नॉन-टर्मिनल टारगेट to_list() को कॉल करने की कोशिश करते हैं, तो क्वाड्रेटिकल व्यवहार होता है.

डिसेट का बेहतर तरीके से इस्तेमाल करने के बारे में ज़्यादा जानने के लिए, परफ़ॉर्मेंस पेज देखें.

एपीआई का संदर्भ

ज़्यादा जानकारी के लिए, कृपया यहां जाएं.